1
Определение оптимальности в статистическом выводе
MATH003Lesson 8
00:00
В огромной пустыне статистических данных мы — охотники, стремящиеся к истине — к истинному параметру $\psi(\theta)$. Но как мы выбираем лучший стрелок (оценщик)? Оптимальность — это не расплывчатое чувство; это математическое искусство минимизации потерь. Чтобы найти «наилучшую» оценку, мы обращаемся к среднеквадратичной ошибке (MSE), которая красиво разлагается на напряжение между двумя фундаментальными силами: Дисперсия и Смещение.

Определение золотого стандарта: Среднеквадратичная ошибка (MSE)

Чтобы измерить, насколько наша гипотеза $T$ отклоняется от реальности $\psi(\theta)$, мы определяем среднеквадратичную ошибку (определение 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

Это среднее квадратическое отклонение между нашей оценкой и целью. Идеальный оценщик имел бы нулевую MSE, но в мире случайных помех мы стремимся её минимизировать.

Теорема 8.1.1: Архитектура ошибки

Почему оценщик может быть неудачным? Теорема 8.1.1 даёт чертёж. Если у $T$ конечный второй момент, то ошибка относительно любого постоянного значения $c$ задаётся формулой:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

Эта формула показывает, что общая квадратическая ошибка минимизируется только когда мы выбираем $c = E(T)$. В контексте вывода мы полагаем $c = \psi(\theta)$, что приводит к знаменитому разложению:

MSE = Дисперсия + Смещение²

Торговля точностью и точностью

Представьте два веса в лаборатории контроля качества:

  • Точный древний артефакт: Он даёт одинаковый вес каждый раз (низкая дисперсия), но смещён на 2 грамма (высокое смещение).
  • Непостоянный мудрец: Он прав в среднем (нулевое смещение), но сильно колеблется между измерениями (высокая дисперсия).

Теорема 8.1.1 позволяет точно вычислить, какой из весов даёт меньшую общую ошибку. Часто мы готовы принять небольшое систематическое отклонение (смещение), если оно значительно уменьшает шум (дисперсию).

Пример 8.1.1: Достаточность и информация

Оптимальность связана с информацией. Рассмотрим пространство выборки $S = \{1, 2, 3, 4\}$. Если исходы 2, 3 и 4 равновероятны при любом возможном параметре, они несут одинаковую вероятность. Мы можем определить достаточную статистику $U$, которая объединяет эти исходы без потери способности делать оптимальный вывод. Как показано в симуляции, если $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$, оптимальная оценка рассматривает их как одно информативное событие.

🎯 Ключевой принцип
Оценка является оптимальной, когда она минимизирует ожидаемые потери. Для квадратичной ошибки это означает поиск точки, где сумма дисперсии и квадрата смещения достигает абсолютного минимума.